前馈

本节中，我们将仔细研究前馈过程背后的数学知识。通过使用基本的线性代数手段，这些计算非常简单！

如果你对线性组合和矩阵乘法不很自信，可以使用以下链接复习：
-线性组合
-矩阵乘法

假设只有一个隐藏层，我们在计算中会需要两个步骤。第一个是计算隐藏状态的数值，第二个是计算输出值。

请注意，隐藏层和输出层都显示为向量，因为它们都是多个单一神经元表示的。

第一个视频将帮你了解第一个步骤：计算隐藏状态的数值。

正如你在上面视频中所见，将输入向量乘以权重矩阵W^{1}，可以计算得到隐藏层的向量{h'}，具体如下：

\bar{h'} = (\bar{x} W^1 )

我们在矩阵乘法使用向量，可以看到以下计算：

我们找到h'后，需要一个激活函数( \Phi)来完成隐藏层数值的计算。这个激活函数可以是双曲正切、Sigmoid或ReLU函数。我们可以使用以下两个方程式来表示最终隐藏的向量\bar{h}：

\bar{h} = \Phi(\bar{x} W^1 )

或

\bar{h} = \Phi(h')

由于W_{ij}
表示权重矩阵中的权重部分，连接输入中的神经元 i 和隐藏层的神经元 j，我们也可以按照以下方式书写计算：
(请注意，在这个例子中，我们有 n 个输入，只有 3 个隐藏的神经元)

关于激活函数的更多信息以及使用方法可参考此处

下一个视频可以帮你了解第二个步骤：计算输出值。

正如你在上面的视频中所见，计算输出向量的过程在数学上类似于计算隐藏层向量的过程。我们再次使用一个矩阵乘法的向量，然后使用一个激活函数。通过隐藏层和矩阵计算得出的最新向量，将隐藏层连接到输出起来。

从本质上讲，神经网络中每个新层都是向量乘以矩阵进行计算，其中向量连接了输入和新层，而矩阵连接了新的输入和下一层。

在我们的例子中，输入向量是\bar{h}，而矩阵是W^2，所以\bar{y}=\bar{h}W^2。在某些应用中，使用 softmax 函数很有帮助（如果我们希望所有的输出值在 0 到 1 之间，它们总和为 1 ）。

最常用的两个误差函数是均方误差(MSE)(通常用于回归问题)和交叉熵(通常用于分类问题)。

在上述计算中，我们使用了平方误差的变体。

接下来的几个视频将关注反向传播过程，即使用链式法则的随机梯度下降。